查看原文
其他

文本数据标注工具-YEDDA

大邓 大邓和他的Python 2019-04-26

NLP标注工具-YEDDA

  • 作者Jie Yang,新加坡科技设计大学SUTD

  • YEDDA: A Lightweight Collaborative Text Span Annotation Tool. Code for ACL 2018 Best Demo Paper Nomination.

  • 基于python的tkinker的桌面应用

  • 仅支持Python3

  • 目前仅仅支持 实体标注 ,未来将加入更多功能

内容制作过程

昨天看到一款python文本标注工具,我觉得挺有用的。大家可以参考参考,以后以此为基础设计自己的标注工具。

我没有太多时间深究,只是知道了又这个东西,分享给大家,具体输出的文件格式如何用,大家还需要深入探索。

虽然本文文章不长,从知道这个YEDDA、阅读学习、到整理分享,全程大概2小时(属于耗时比较短的)。所以如果大家觉得有用就帮着点点广告,就动动金手指免费给我打赏。^_^

运行效果

Jie Yang的设计的很全面,但我使用过程中发现有好几个功能没用到,我就修改甚至是删掉了一些功能。运行情况如下

使用方法说明

本使用方法说明是基于我修改后的标注工具。文件夹名为 大邓修改后的ChineseAnnotator。下图为修改后的文件夹示意图

  1. 首先打开main.py,运行。

  2. 弹出桌面软件后,先 重定映射关系。比如现在我们看到的A代表Artifical、B代表Event,如果你需要修改标注语法,就要先修改标注名,之后点击重定映射关系

  3. 点击打开txt文件

  4. 在文本中找到要标注的词语前,点击鼠标。

  5. 命令 输入框中输入 数字n+字母(词性标注语法的快捷键)+ 点Enter。数字代表当前光标之后的n个字符,字母是快捷键的小写字母

  6. 记得时常点击 保存 按钮,防止程序突然中止未保存标注工作

  7. 退出程序请点击 退出程序

注意

如果发表论文使用了该标注工具,请标注引用Jie Yang的论文

@article{yang2017yedda,  
 title={YEDDA: A Lightweight Collaborative Text Span Annotation Tool},  
 author={Yang, Jie and Zhang, Yue and Li, Linwei and Li, Xingxuan},  
 booktitle={Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics},
 url={http://aclweb.org/anthology/P18-4006},
 year={2018}  

精选文章

优雅地解决Python的日常问题

五分钟带你了解随机森林   

聊天机器人:十行代码让你秒变撩妹达人   

100G 文本分析语料资源(免费下载)      

15个最好的数据科学领域Python库    

使用Pandas更好的做数据科学

抓取8w技能交换公告信息

【视频讲解】Scrapy递归抓取简书用户信息   

美团商家信息采集神器 

大邓强力推荐-jupyter notebook使用小技巧       

10分钟理解深度学习中的~卷积~  

深度学习之 图解LSTM   

PyTorch实战: 使用卷积神经网络对照片进行分类  

Pytorch实战:使用RNN网络对姓名进行分类   

数据清洗 常用正则表达式大全

PySimpleGUI: 开发自己第一个软件

深度特征合成:自动生成机器学习中的特征

Python 3.7中dataclass的终极指南(一) 

Python 3.7中dataclass的终极指南(二) 

[计算消费者的偏好]推荐系统与协同过滤、奇异值分解

机器学习: 识别图片中的数字

应用PCA降维加速模型训练

如何从文本中提取特征信息?

使用sklearn做自然语言处理-1 

使用sklearn做自然语言处理-2

机器学习|八大步骤解决90%的NLP问题    

Python圈中的符号计算库-Sympy

Python中处理日期时间库的使用方法 

用chardect库解决网页乱码问题 


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存